多目标优化(MOO)旨在同时优化多个冲突的目标,并在机器学习中发现了重要的应用,例如最大程度地减少分类损失和差异,以在处理不同的人群方面以保持公平。最佳性,进一步优化一个目标至少将至少损害另一个目标,而决策者需要全面探索多个Optima(称为Pareto Front),以确定一个最终解决方案。我们解决了寻找帕累托阵线的效率。首先,使用随机多偏差下降(SMGD)从头开始寻找前部,对于大型神经网络和数据集很昂贵。我们建议基于预测器 - 校正方法来探索帕累托阵线作为一些初始Optima的歧管。其次,对于每个探索步骤,预测变量求解一个大规模的线性系统,该系统在模型参数数量中二次缩放,并且需要一个反向传播来评估求解器的二阶Hessian-vector产品。我们提出了一个只能线性缩放的高斯 - 纽顿近似,并且只需要每次迭代的一阶内产物。这还允许在大约求解线性系统时,在微小和共轭梯度方法之间进行选择。这些创新使大型网络成为可能的预测器 - 校准。关于多目标(公平和准确性)错误信息检测任务的实验表明,1)预测器 - 矫正器方法可以在更少的时间内找到比或与SMGD更好或与SMGD相似的方法; 2)提出的一阶方法不会损害二阶方法识别的帕累托前沿的质量,同时进一步缩短了运行时间。
translated by 谷歌翻译
Realizing when a model is right for a wrong reason is not trivial and requires a significant effort by model developers. In some cases, an input salience method, which highlights the most important parts of the input, may reveal problematic reasoning. But scrutinizing highlights over many data instances is tedious and often infeasible. Furthermore, analyzing examples in isolation does not reveal general patterns in the data or in the model's behavior. In this paper we aim to address these issues and go from understanding single examples to understanding entire datasets and models. The methodology we propose is based on aggregated salience maps. Using this methodology we address multiple distinct but common model developer needs by showing how problematic data and model behavior can be identified -- a necessary first step for improving the model.
translated by 谷歌翻译
自动评估摘要的连贯性具有重要意义,既可以实现成本效益的摘要评估,又可以通过选择高分候选候选摘要来提高连贯性。尽管已经提出了许多不同的方法来建模摘要相干性,但通常使用不同的数据集和指标对其进行评估。这使得很难理解他们的相对性能,并确定朝着更好的摘要连贯建模的方法。在这项工作中,我们对各种方法进行了大规模研究,以进行均匀的竞争环境建模。此外,我们介绍了两项新的分析措施,即系统内相关性和偏置矩阵,它们有助于确定相干度量的偏见,并为系统级混杂因素提供鲁棒性。尽管当前可用的自动连贯性措施都无法为所有评估指标的系统摘要分配可靠的连贯分数,但对自我监督任务进行了微调的大规模语言模型显示出令人鼓舞的结果,只要微调会考虑在内他们需要在不同的摘要长度上概括。
translated by 谷歌翻译
由于COVID强烈影响呼吸系统,因此肺CT扫描可用于分析患者健康。我们引入了一个神经网络,用于预测肺损伤的严重程度和使用三维CT扫描检测感染。因此,我们将最新的Convnext模型调整为处理三维数据。此外,我们引入了专门调整的不同训练方法,以提高模型处理三维CT-DATA的能力。为了测试模型的性能,我们参加了第二COV19D严重性预测和感染检测的竞争。
translated by 谷歌翻译
近年来,以用户为中心的应用程序有所增长,这些应用程序需要在低数据制度中跨任务进行有效的知识转移。一个示例是个性化,通过学习少量属于特定用户的标记数据,可以调整一个预处理的系统。这种设置需要在低计算复杂性下高精度,因此准确性的帕累托前沿与适应性成本起着至关重要的作用。在本文中,我们将在几个摄影图像分类设置中推动此帕累托前沿,并具有两个关键的贡献:(i)一个称为上下文挤压和兴奋(案例)的新型自适应块,该块在新任务上调整了预处理的神经网络,以显着通过用户数据(上下文)的单个正向通过,以及(ii)基于称为大写的坐标培训协议(II)的混合训练协议,以提高性能,该协议利用了元训练的情况块和微调例程,以进行有效的适应。大写在VTAB+MD的26个数据集和充满挑战的现实世界个性化基准(Orbit)上,相对于元学习者的新最先进的准确性(轨道),从而通过领先的微调方法缩小了差距自适应成本较低的数量级。
translated by 谷歌翻译
最先进的3D感知生成模型依赖于基于坐标的MLP来参数化3D辐射场。在证明令人印象深刻的结果的同时,请查询每个沿每个射线样品的MLP,都会导致渲染缓慢。因此,现有方法通常会呈现低分辨率特征图,并通过UPSMPLING网络处理以获取最终图像。尽管有效,神经渲染通常纠缠于观点和内容,从而改变摄像头会导致几何或外观的不必要变化。在基于体素的新型视图合成中的最新结果中,我们研究了本文中稀疏体素电网表示的快速和3D一致生成建模的实用性。我们的结果表明,当将稀疏体素电网与渐进式生长,自由空间修剪和适当的正则化结合时,单层MLP确实可以被3D卷积代替。为了获得场景的紧凑表示并允许缩放到更高的体素分辨率,我们的模型将前景对象(以3D模型)从背景(以2D模型建模)中。与现有方法相反,我们的方法仅需要单个正向通行证来生成完整的3D场景。因此,它允许从任意观点呈现有效渲染,同时以高视觉保真度产生3D一致的结果。
translated by 谷歌翻译
我们以已知的奖励和未知的约束来研究顺序决策,这是由约束代表昂贵评估人类偏好(例如安全舒适的驾驶行为)的情况所激发的。我们将互动学习这些约束作为新的线性匪徒问题的挑战正式化,我们称之为约束的线性最佳臂识别。为了解决这个问题,我们提出了自适应约束学习(ACOL)算法。我们为约束线性最佳臂识别提供了一个依赖实例的下限,并表明Acol的样品复杂性与最坏情况下的下限匹配。在平均情况下,ACOL的样品复杂性结合仍然比简单方法的边界更紧密。在合成实验中,ACOL与Oracle溶液相同,并且表现优于一系列基准。作为应用程序,我们考虑学习限制,以代表驾驶模拟中的人类偏好。对于此应用,ACOL比替代方案要高得多。此外,我们发现学习偏好作为约束对驾驶场景的变化比直接编码奖励函数中的偏好更强大。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
Randomly masking and predicting word tokens has been a successful approach in pre-training language models for a variety of downstream tasks. In this work, we observe that the same idea also applies naturally to sequential decision making, where many well-studied tasks like behavior cloning, offline RL, inverse dynamics, and waypoint conditioning correspond to different sequence maskings over a sequence of states, actions, and returns. We introduce the FlexiBiT framework, which provides a unified way to specify models which can be trained on many different sequential decision making tasks. We show that a single FlexiBiT model is simultaneously capable of carrying out many tasks with performance similar to or better than specialized models. Additionally, we show that performance can be further improved by fine-tuning our general model on specific tasks of interest.
translated by 谷歌翻译
我们提供了一种新的单调改进保证,以优化合作多代理增强学习(MARL)中的分散政策,即使过渡动态是非平稳的。这项新分析提供了对两种最新的MARL参与者批评方法的强劲表现的理论理解,即独立的近端策略优化(IPPO)和多代理PPO(MAPPO)(MAPPO),它们都依赖于独立比率,即计算概率,每个代理商的政策分别比率。我们表明,尽管独立比率引起的非平稳性,但由于对所有分散政策的信任区域约束,仍会产生单调的改进保证。我们还可以根据培训中的代理数量来界定独立比率,从而以原则性的方式有效地执行这种信任区域约束,从而为近端剪辑提供了理论基础。此外,我们表明,当IPPO和Mappo中优化的替代目标在批评者收敛到固定点时实质上是等效的。最后,我们的经验结果支持以下假设:IPPO和MAPPO的强劲表现是通过削减集中式培训来执行这种信任区域约束的直接结果,而该执行的超参数的良好值对此对此具有高度敏感性正如我们的理论分析所预测的那样。
translated by 谷歌翻译